SpeechBrain 1 是一个基于 PyTorch 的开源对话式 AI 工具包,特别专注于语音处理任务,例如语音识别、语音增强、说话人识别、文本转语音等。它通过发布预训练模型以及训练它们所需的完整代码和算法“配方”,提高了透明度和可复制性。本文介绍了 SpeechBrain 1.0,这是该工具包发展的一个重要里程碑,现在它有超过 200 种语音、音频和语言处理任务配方,以及 Hugging Face 上提供的 100 多个模型。SpeechBrain 1.0 引入了新技术来支持多种学习模式、大型语言模型 (LLM) 集成和高级解码策略,以及新颖的模型、任务和模式。它还包括一个新的基准存储库,为研究人员提供了一个统一的平台来评估跨不同任务的模型。关键词:对话式 AI、开源、语音处理、深度学习。
主要关键词
![arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第1页](/bimg/7/7c62da64692e417025673ad3605de352d16f8a0d.webp)
![arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第2页](/bimg/1/14d76a93b9518087d117f129b3fa0bf848a60bb6.webp)
![arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第3页](/bimg/f/fef17f3c0b02fe72bca47b3bcb4493d5b43b96c7.webp)
![arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第4页](/bimg/5/52846d6cae8382e798da6356aa183463684458eb.webp)
![arXiv:2407.00463v5 [cs.LG] 2024 年 10 月 16 日PDF文件第5页](/bimg/0/0aced958abb673e402311788ebe15e3ab53ffec5.webp)
